‘문체 분석’의 새로운 무기, 혼합 SN-그램
AI가 문체분석까지 할 단계에 도달한다 |
AI가 글맛까지 파악한다고?
“이 글, 왠지 그 작가가 썼을 것 같아.”
책 좀 읽는 사람이라면, 작가 특유의 문체를 눈치챈 경험이 있을 거다. 그런데 이제 그런 눈치는 AI도 발휘할 수 있다. 더 놀라운 건, AI가 글을 쓴 사람을 추정할 수 있는 방법이 갈수록 정교해지고 있다는 사실.
최근 한 연구팀이 ‘혼합 SN-그램(Mixed SN-Grams)’이라는 새로운 스타일 마커를 제안하며 주목받고 있다. 이 마커는 단어, 품사, 문법 구조까지 통합해 글의 스타일을 정밀하게 분석할 수 있도록 설계됐다. 글쓴이의 흔적을 추적하는 AI 수사관이 더 예리해진 셈이다.
---
글도 사람처럼 '지문'이 있다
글에는 그 사람만의 스타일이 묻어난다. 문장을 어떻게 구성하는지, 어떤 단어를 자주 쓰는지, 문장부호는 어떻게 사용하는지—이 모든 것이 '문체(style)'라는 흔적이다.
AI 분야에서는 이런 문체를 수치화해 분석하는 기술을 ‘문체 측정(Stylometry)’이라고 부른다. 이 기술은 단순한 문학 연구를 넘어, 표절 탐지, 저자 프로파일링, 심지어 신경 질환의 조기 진단에도 응용된다.
---
‘SN-그램’이 뭐길래?
기존 문체 분석은 주로 단어 혹은 문자들의 빈도와 조합(예: n-그램)을 중심으로 이뤄졌다. 그러나 이런 분석은 문장 구조를 반영하지 못한다는 한계가 있다.
그래서 연구진은 '문법 구조'까지 고려하는 SN-그램(Syntactic n-grams)이라는 개념을 확장했다.
여기서 'S'는 구문(syntax), 즉 문장의 뼈대가 되는 문법적 구조를 의미한다.
예를 들어,
"The neighbor went to a new restaurant."
이 문장의 SN-그램은 단어들의 단순한 나열이 아니라,
‘누가(governs) 누구를’이라는 문법적 의존 관계를 반영해 만든다.
이렇게 생성된 SN-그램은 저자 고유의 문법 패턴을 포착할 수 있어, 더 정밀한 필체 분석이 가능해진다.
---
그런데 왜 ‘혼합(Mixed)’인가?
기존 SN-그램은 단어만, 품사만, 혹은 문법 관계만 사용하는 단일형(Homogeneous) 형태였다. 반면 이번 연구에서는 이 세 가지 요소를 조합해 만든 ‘혼합 SN-그램’을 제안했다.
예를 들어, 다음과 같은 혼합이 가능하다:
주 노드: 단어, 연결 노드: 품사 → Word-POS
주 노드: 문법 관계, 연결 노드: 단어 → DR-Word
주 노드: 품사, 연결 노드: 문법 관계 → POS-DR
이런 조합은 훨씬 다양한 문체 패턴을 포착할 수 있는 장점이 있다. 특히 글쓴이의 독특한 문장 구조와 단어 선택 습관을 동시에 반영할 수 있다.
---
실험: AI, 작가를 맞히다
연구진은 혼합 SN-그램 기반 모델을 기존 기법과 비교하기 위해 두 가지 데이터셋으로 실험을 진행했다.
1. PAN 2012 (고전 영문학 작가 3~14명)
혼합 SN-그램 모델이 기존 기법보다 최대 25% 높은 정확도
특히 Word-POS나 DR-POS 조합이 우수한 성능을 보였다
2. CCAT50 (뉴스 기자 50명)
복잡한 현대 문서 환경에서도 혼합 SN-그램이 안정적인 성능
POS-Word 조합이 최고 정확도 (73.6%)
기존의 단어 기반 분석(n-gram)보다도 평균 5% 이상 향상
또한, SVM, Naive Bayes, 로지스틱 회귀 등 다양한 머신러닝 모델과 결합해도 높은 성능을 유지했다.
---
왜 이게 중요한가?
1. 글쓴이 식별에 강력한 도구
표절 검출, 문서 진위 판별, 디지털 포렌식 등 다양한 분야에 활용 가능하다.
2. ‘AI가 쓴 글’도 구별 가능
대형 언어모델이 만든 문장에도 특정 문체가 있다. 혼합 SN-그램은 AI가 쓴 글과 인간이 쓴 글을 구분하는 데도 효과적이다.
3. 범죄 수사에도 적용 가능
익명 편지, 협박 문자, SNS 글 등에서 작성자를 좁히는 데 사용될 수 있다.
---
한계와 향후 방향
물론, 이 방법도 단점은 있다.
문장 구조 파악을 위한 파서(parser) 처리 시간이 길고 메모리 소모도 크다.
문장이 길거나 복잡할수록 처리 시간이 급증한다.
하지만 연구진은 파서 경량화 모델을 적용하거나, 자주 쓰이는 SN-그램만 선별하는 방식으로 이 문제를 보완할 수 있다고 본다.
---
“문장은 곧 사람이다”
이 논문은 단순히 기술적 발전만이 아니다.
AI가 인간의 ‘글맛’을 어떻게 이해하고 복제할 수 있는지를 보여준 예시다.
사람마다 걷는 걸음걸이가 다르듯, 글을 쓰는 방식도 제각각이다. 혼합 SN-그램은 그 걸음걸이를 측정하고, 패턴화하고, 예측한다. 앞으로는 AI가 그 사람의 문체만으로도 “이건 네가 쓴 글이야”라고 말하게 될지도 모른다.
---
출처 논문
Posadas-Durán, J.P.F.; Ríos-Toledo, G.; Velázquez-Lozada E.; Osuna-Coutiño, J.A.d.J.; Pérez-Patricio, M.; Peach May, F. Learning the Style via Mixed SN-Grams: An Evaluation in Authorship Attribution. AI 2025, 6, 104.